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摘要 : 【 目的 ] 改进 基于 用 户 的 协同 过 滤 算 法 以 缓解 因数 据 稀疏 、 用 户 共同 评分 稀少 所 导致 的 问题 ,进而 提高 评 
分 预测 的 精度 。[ 方法 ] 提出 结合 用 户 打分 时 间 发 现 具有 相似 打分 行为 的 用 户 ,并 将 用 户 评分 方差 相似 性 融入 到 
相似 度 的 计算 中 , 使 得 目标 用 户 在 最 近邻 的 选取 上 更 加 合理 。[ 结果 】 实 验 结果 表明 ,， 相 较 基 于 用 户 的 协同 过 滤 
算法 , 新 算法 的 平均 绝对 误差 降低 约 2%, 在 一 定 程度 上 改善 了 推荐 系统 的 推荐 效果 。[ 局 限 ] 该 算法 仅 在 
MovieLens 数据 集 上 进行 了 实验 测试 , 还 需要 在 其 他 数据 集 上 进行 检验 。[ 结论 ] 本 文 算法 能 够 有 效 地 提高 推荐 


精度 ,具有 一 定 的 可 行 性 和 现实 意义 。 
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互联 网 的 迅速 发 展 将 人 们 带 入 了 一 个 轿 新 的 信息 
时 代 , 网 络 中 的 信息 资源 越 来 越 丰富 ， 当 用 户 面 对 海 
量 的 数据 信息 时 ， 如 何在 茫茫 的 信息 海洋 中 快速 、 准 
确 地 找到 需要 的 信息 成 为 用 户 关 注 的 问题 , 潜在 的 用 户 
也 常常 因此 而 流失 , 这 就 是 所 谓 的 “信息 过 载 "现象 .1。 
为 了 使 用 户 能 够 在 庞大 的 数据 中 快速 找到 需要 的 信 
息 , 个 性 化 推荐 应 运 而 生 。 协 同 过 滤 推 荐 算法 是 其 中 
应 用 最 广泛 的 技术 ,其 优点 是 对 所 推荐 的 项 目 没有 特 
别 的 要 求 ， 而且 还 能 够 处 理 非 结 构 化 复杂 的 对 象 ， 如 
文章 、 电 影 以 及 书籍 等 。 协 同 过 滤 推 荐 算法 通过 分 析 
用 户 -项 目 评分 矩阵 , 在 此 基础 上 将 大 量 不 需要 的 信 
息 过 滤 掉 , 最 后 寻找 到 用 户 所 感 兴趣 的 项 目 中 。 

虽然 协同 过 滤 推 荐 算法 在 很 多 方面 表现 出 独特 的 
优势 , 但 主要 的 缺点 是 过 分 依赖 评分 矩阵 。 随 着 网 站 


m} 


商品 和 用 户 数量 快速 地 增长 ,评分 矩阵 中 用 户 真 正 给 
予 评 分 的 商品 数量 非常 少 , 通常 在 1% 以 下 。 当 数据 过 
于 稀疏 时 ， 推 荐 系统 中 用 户 之 间 的 共同 评分 项 目 就 会 
极其 稀少 , 这 种 情况 使 得 用 户 之 间 的 相似 度 计算 不 准 
确 ， 从 而 导致 推荐 质量 下 降 。 因 此 本 文 提出 一 种 基于 
用 户 评分 时 间 改 进 的 协同 过 滤 推 荐 算法 , 该 算法 能 够 
有 效 地 缓解 数据 异常 稀 鸣 、 用 户 共 同 评分 稀少 所 带 
来 的 问题 , 通过 优化 最 近邻 查找 的 方法 ,提高 推荐 准 
确 性 。 


2 研究 背景 


已 有 很 多 学 者 针对 如 何 改善 数据 稀 琉 性 对 推荐 系 
统 的 影响 进行 了 大 量 的 研究 ,基本 可 分 为 两 类 : 利用 
一 定 的 方法 降低 数据 的 稀 疏 度 ;改进 推荐 系统 的 推荐 
算法 来 提高 算法 的 推荐 质量 。 对 于 推荐 算法 的 改进 研 
究 , 由 于 寻找 目标 用 户 的 最 近邻 是 协同 过 滤 算 法 的 核 
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心 , 在 推荐 效果 上 起 着 至 关 重 要 的 作用 外 ,因此 用 户 
之 间 相 似 度 计算 的 准确 性 就 非常 关键 。 传 统 的 相似 度 
计算 方法 主要 有 : RIZE, ERIZE, 
Pearson 相关 相似 性 5E%。 采 用 余弦 相似 性 计算 用 户 之 
间 相 似 度 的 过 程 中 没有 充分 利用 评分 时 间 这 一 信息 ， 
评分 时 间 对 于 判断 该 项 目 评分 的 有 用 性 具有 关键 的 作 
用 。 虽 然 修正 的 余弦 相似 度 和 Pearson 相关 相似 性 改 
善 了 评分 分 值 所 带 来 的 影响 , 但 也 没有 考虑 到 一 种 相 
对 特殊 的 情况 ， 即 当 评 分 和 矩阵 异常 稀 玖 时 ,两 个 用 户 
之 间 的 共同 评分 的 项 目 就 会 极 少 , 使 用 该 方法 计算 的 
相似 度 同 样 会 存在 不 准确 的 情况 ， 导 致 推荐 质量 效果 
不 佳 的 问题 。 

针对 上 述 问 题 ， 本文 提出 结合 用 户 的 评分 时 间 发 
现 具有 相似 评分 行为 的 用 户 ， 从 而 改善 传统 协同 过 滤 
算法 中 寻找 最 近邻 的 方法 。 并 在 此 基础 上 融合 用 户 评 
分 方差 相似 度 ， 从 而 更 全 面 地 利用 用 户 评 分 信息 改善 
相似 度 的 计算 ， 即 使 在 数据 异常 稀 玻 、 用 户 之 间 共 同 
评分 稀少 的 前 提 下 依然 能 相对 准确 地 计算 用 户 之 间 的 
相似 度 , 达到 提高 推荐 准确 性 的 目的 。 


3 ”基于 用 户 评分 时 间 改 进 的 协同 过 滤 推 荐 
算法 
3.1 算法 描述 
(1) 定义 1: 相似 评分 项 ，Tui 表示 用 户 u 对 项 目 i 
的 评分 时 间 , 假设 用 户 u 和 v 都 对 项 目 i 有 过 评分 , 另 
外 Ti 与 Ti 的 差 值 小 于 预先 指定 的 一 个 时 间 间 隔 , 那 
么 i 就 是 被 认定 为 用 户 u 和 v 的 相似 评分 项 目 S，。 
(2) 定义 2: 相似 用 户 行为 ， 两 个 用 户 的 相似 评分 
项 大 于 等 于 指定 阔 值 和 X， 则 认为 这 两 个 用 户 具 有 相似 
用 户 行为 , 公式 如 下 : 


S= 0 Suy <À 
ME v — 


(1) 


MS < 入 时 , 表示 用 户 u 和 用 户 v 之 间 相 似 评分 
行为 少 , 在 计算 相似 性 时 需要 舍弃 ， 否则 会 影响 准确 
性 。 用 户 相似 评分 项 闵 值 在 实验 中 的 取 值 直接 影响 
到 算法 计算 的 准确 性 , 在 应 用 的 过 程 中 需要 根据 实验 
中 的 具体 情况 确定 入 的 取 值 ， 从 而 得 到 最 优 解 。 

(3) 定义 3: 用 户 评 分 方差 相似 度 

本 文 将 用 户 的 评分 方差 引入 到 相似 度 的 计算 中 以 
衡量 用 户 之 间 相 似 度 的 差异 性 , 在 此 基础 上 提出 用 户 
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评分 方差 相似 度 (User Rating Variance Similarity, 
URVS) 理 论 , 计算 方法 如 公式 (2) 所 示 : 


[Var 5 Var, | 
Var, + Var, 


Hp, Van, Var, 分 别 表示 用 户 u,v 的 评分 方差， 
例如 用 户 a, b, c 的 方差 分 别 为 1、3、5, 那么 
Simurvs(a,b)=0.5，Simurvs(a,c) &0.33 。 评 分 方差 
越 大 表示 用 户 的 争议 度 就 越 大 , 评分 方差 越 小 表示 用 
户 的 争议 度 就 越 小 。 

3.2 ”改进 后 的 相似 度 计 算 

本 文 以 修正 的 余弦 相似 度 为 例 , 结合 用 户 评分 时 

间 的 相似 度 的 计算 方法 如 公式 (3) 所 示 : 
> (Ru-Ruj(Ru-Rv) 


iel 
uv (3) 


n (Rui -R, y X (Ry -R, y 
iel, i 
在 结合 用 户 评分 时 间 的 基础 上 , 引入 用 户 评 分 方 
差 相 似 度 的 相似 性 计算 如 公式 (4) 所 示 : 
SiMyrvs-cr (U, v) = aSimpgyg(u, v) - (12 à)Sim4 (u,v)xS (4) 


即 : 


Q) 


Simygys(u, v) -1— 


sim(ü,v)A , -Sx 


Si (a5) 1 [Var = Var, | TE 
TY Var + Var, 5 
Dier (Rui -Ru (Ra -R,) (5) 


xS 


"Sm (Ru a Ra P (Ru z R, ) 


基于 用 户 评分 时 间 改 进 的 协同 过 滤 推 荐 算法 的 优 
势 在 于 即便 在 数据 异常 稀疏 、 用 户 之 间 共 同 评分 稀少 
的 情况 下 依然 能 够 充分 地 利用 用 户 的 评分 信息 ， 相 对 
准确 地 计算 出 用 户 之 间 的 相似 度 ， 提高 推荐 系统 的 推 
荐 准确 性 。 

3.3 ”改进 后 算法 的 主要 步骤 

输入 : 用 户 - 项 目 评分 给 阵 ， 目标 用 户 u 

输出 : 目标 用 户 员 的 TOP-N 项 目 推荐 列表 。 

CDIR AS Hl P — E EHE R, 利用 改进 的 修正 余弦 相 
似 度 计算 方法 (公式 (4)) 计 算 用 户 u 和 其 他 用 户 的 相似 度 ， 
如 果 在 某 个 时 间 段 内 评价 电影 的 个 数 过 少 ， 则 相似 度 Sim 
设 为 0。 

@) 根 据 步 又) 计算 出 的 相似 度 ， 确 定 目标 用 户口 的 上 个 
最 近邻 居 ,， 设 最 近邻 居 集 合 为 民 ={vva…vke}， 则 目标 用 
户 忆 与 最 近邻 的 相似 度 为 sim = sim, sim, sima) 。 

@ 分 别 确定 目标 用 户 u 和 相似 近邻 已 经 评分 过 的 项 目 
4 4 1, 和 开 = 人 ,Di ， 将 所 有 的 工 取 并 集 ， 然 后 将 


中 已 经 存在 的 项 目 去 掉 ， 最 后 产生 候选 集 Z。 

@ 对 候选 集中 VjeZ, 利用 公式 (6) 预 测 用 户 u 对 项 目 j 
的 评分 。 

> SimURVS_CF G,V) (Ri -R,) 
加 R vieN 6 

> lsimurvs_cr (y) " 
ueN 

加 将 步 又 转 中 项 目的 预测 评分 按照 降序 从 大 到 小 的 排 
列 ， 选 择 排 在 最 前 面 评分 最 高 的 前 n 个 项 目 推荐 给 用 户 us 


4 实验 与 分 析 


4.1 实验 数据 与 环境 

本 文采 用 由 Minnesota 大 学 的 GroupLens 研究 小 
组 创建 的 MovieLens 数据 集 "中 的 100K 的 数据 集 进行 
实验 。 该 数据 集 记录 共 943 个 用 户 对 1 682 部 电影 的 10 
万 条 评分 。 评 分 的 分 值 在 [0-5] 之 间 不 等 ,用户 对 电影 
的 喜爱 程度 随 着 分 值 的 增加 而 递增 四 。 从 数据 集中 随 
机 抽取 80% 作 为 训练 集 ， 剩余 20% 作 为 测试 集 钻 。 数 
Je e BRL BEYT SEAT P Bron: 
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943x1682 


由 此 可 见 ,所 选择 的 数据 集 的 评分 矩阵 是 非常 稀 
PLY o 

实验 环境 是 Intel(R)Core(TM)i3-2310M 2.10GHz 
CPU, 2GB 内 存 , Microsoft Windows7 操作 系统 , 算法 
使 用 Matlab 语言 实现 。 
4.2 ”检验 指标 

采用 平均 绝对 误差 (MAB) 评 价 该 系统 的 推荐 质 
Ht. MAE 通过 计算 实际 评分 与 预测 评分 之 间 的 差 值 衡 
量 算法 的 好 坏 。 MAE 值 越 小 说 明 该 算法 就 越 好 。 MAE 
值 的 计算 如 公式 (7) 所 示 : 


MAE -— >» 
(wi)eR 

Hop, B 表示 用 户 u 对 电影 i 的 预测 评分 ，Rui 
表示 用 户 u 对 电影 i 的 真实 评分 ,na 表示 Pui 或 者 Rui 的 
数量 。 
43 ”实验 分 析 

(1) 实验 一 : 参数 入 对 推荐 系统 性 能 的 影响 

利用 公式 (3) 计 算出 用 户 之 间 的 相似 度 ,并 根据 相 


Pii i Rai 


(7) 


CDhttp://grouplens.org/datasets/movielens. 


似 度 的 大 小 确定 目标 用 户 的 最 近邻 ,根据 文献 [6] 中 的 
评分 预测 公式 计算 出 目标 用 户 对 于 未 评分 项 目的 评分 
值 。 由 于 实验 一 主要 用 于 测试 参数 入 对 MAE 值 的 影 
响 ， 因 此 需要 控制 最 近邻 的 个 数 ， 当 最 近邻 的 个 数 为 
30, iiti uH AE 3. 5. 8. 10, 12, 14, MAE {Ë 
的 变化 情况 如 图 1 所 示 : 


0.7670 p 
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F3 f£. (Neighbor Size(K—30)) 
图 1 国 值 和 对 MAE 值 的 影响 


从 图 1 中 能 够 看 出 阔 值 入 取 10 时 ，MAE 值 最 低 ， 
推荐 精度 最 高 。 因 此 在 实验 中 设置 阔 值 X=10。 

(2) 实验 二 : 参数 a 对 推荐 系统 性 能 的 影响 

该 实验 主要 用 于 测试 参数 0 对 MAE 值 的 影响 ， 
同样 需要 控制 最 近邻 的 个 数 。 当 最 近邻 个 数 为 30 HF, 
MAE 值 随 不 同 的 a 值 的 变化 情况 如 图 2 所 示 : 
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图 2 变量 wx 对 MAE 的 影响 
从 图 2 中 可 以 看 出 , 当 w = 0.2 时 ，MAE 值 最 小 ， 
推荐 结果 最 优 。 随 着 wx 逐步 增加 至 0.2 时 ，MAE 值 逐 
步 减 小 ，o 继续 递增 , MAE 值 又 开始 缓慢 递增 。 通 过 
实验 结果 可 以 认为 a 在 协同 过 滤 中 起 着 重要 的 作用 ， 
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只 有 选择 恰当 的 wx 才能 获得 最 佳 的 推荐 对 象 ， 得 到 最 
优 的 推荐 结果 , MAE 值 才 能 降 到 最 低 。 所 以 在 实验 三 
中 参数 a 的 取 值 为 0.2。 

(3) 实验 三 : 推荐 性 能 随 最 近邻 数目 的 变化 情况 

为 了 验证 本 文 提出 的 基于 用 户 评分 时 间 改 进 的 协 
同 过 滤 推 荐 算法 的 有 效 性 ， 进 行 实 验 对 比 。 在 
MovieLens 数据 集 上 对 改进 的 算法 与 传统 的 基于 用 户 
的 协同 过 滤 推 荐 算法 的 推荐 准确 性 进行 了 比较 。 从 实 
验 一 和 实验 二 的 结果 可 知 ，X 的 取 值 为 10，a 的 取 值 
为 0.2. MAE 值 随 不 同 的 最 近邻 数目 的 变化 情况 如 图 
3 所 示 : 
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图 3 改进 后 协同 过 滤 算 法 的 性 能 


从 图 3 中 可 以 看 出 , 基于 用 户 评分 时 间 改 进 的 协 
同 过 滤 推 荐 算法 在 最 近邻 用 户 个 数 分 别 为 10、20、30、 
40、50 的 MAE 值 均 小 于 传统 的 基于 用 户 的 协同 过 滤 
推荐 算法 。MAE 值 平均 降低 2%。 由 此 可 见 , 在 相似 
度 的 计算 中 考虑 用 户 的 评分 时 间 、 并 且 引 入 用 户 评分 
方差 相似 性 后 推荐 效果 的 准确 度 得 到 了 明显 提高 。 


5 结 语 


本 文 对 传统 的 基于 用 户 的 协同 过 滤 推 荐 算法 中 存 
在 的 不 足 之 处 进行 改进 , 提出 一 种 基于 用 户 评 分 时 间 
改进 的 协同 过 滤 推 荐 算法 。 新 算法 考虑 了 在 用 户 -项 目 
评分 矩阵 异常 稀疏 、 系 统 中 两 个 用 户 之 间 共 同 评分 项 
目 极 少 时 ,所 导致 的 相似 度 计算 不 准确 ,推荐 准确 性 
下 降 的 情况 。 针 对 这 一 问题 ,本 文 结合 用 户 的 评分 时 
间 发 现 具 有 相似 评分 行为 的 用 户 , 并 融合 用 户 评分 方 
差 相 似 度 来 改善 传统 用 户 之 间 相 似 度 的 计算 ,进而 优 
化 了 目标 用 户 最 近邻 的 查找 方式 。 实 验 结果 表明 , 该 
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算法 即使 在 系统 数据 异常 稀疏 、 用 户 之 间 共 同 评分 稀 
少 的 前 提 下 依然 能 够 相对 准确 地 计算 用 户 之 间 的 相似 
度 ， 从 而 得 到 更 加 准确 的 推荐 效果 。 
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New Collaborative Filtering Recommendation Algorithm Based on 
User Rating Time 


LiDaoguo! Li Lianjie? Shen Enping? 
(School of Information Engineering, Hangzhou Dianzi University, Hangzhou 310018, China) 
“School of Management, Hangzhou Dianzi University, Hangzhou 310018, China) 


Abstract: [Objective] This paper tries to solve the problems facing traditional collaborative filtering algorithm due to 
sparse data and few users’ common scores, and then improve the accuracy of the score prediction systems. [Methods] 
First, we identified users with similar scoring behaviors based on their scoring time. Second, we integrated the 
similarity of user score variance to the calculation of similarity. [Results] The new algorithm, which reduced the MAE 
by 2% compared to the traditional algorithm, improved the performance of recommendation system. [Limitations] The 
proposed algorithm was only examined with the MovieLens dataset, which needed to be expanded to other datasets. 
[Conclusions] The proposed algorithm can improve the effectiveness of recommendation systems. 

Keywords: Collaborative filtering Data sparsity Similarity score User rating variance similarity 
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